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Resume : Selon un rapport recent de la commission europeenne, le 
monde genere chaque minute 1,7 millions de milliards d’octets de 
donnees, soit Tequivalent de 360 000 DVD, et les entreprises qui 
bMssent leur processus decisionnels en exploitant ces donnees ac- 
croissent leur productivite. Le traitement et la valorisation de donnees 
massives a des consequence en matiere d’emploi pour les diplomes 
des filieres statistiques. Quelles competences nouvelles les etudiants 
formes en statistique doivent-ils acquerir devenir des scientifiques des 
donnees ? Comment faire evoluer les formations pour permettre aux 
futurs diplomes de s’adapter aux evolutions rapides dans ce domaine, 
sans pour autant negliger les metiers traditionnels et le socle fonda- 
mental et perenne de la formation ? Apres nous etre interroges sur la 
notion de donnees massives et Temergence d’une "nouvelle" science : 
la science des donnees, nous presenterons les evolutions en cours 
dans la formation d’ingenieurs en Genie Mathematique et Modeli- 
sation a TINS A de Toulouse. Mots-clefs : Science des donnees; Sta¬ 
tistique ; donnees massives; enseignement 

Abstract : According to a recent report from the European Commis¬ 
sion, the world generates every minute 1.7 million of billions of data 
bytes, the equivalent of 360,000 DVDs, and companies that build their 
decision-making processes by exploiting these data increase their pro¬ 
ductivity. The treatment and valorization of massive data has conse¬ 
quences on the employment of graduate students in statistics. Which 
additional skills do students trained in statistics need to acquire to be¬ 
come data scientists ? How to evolve training so that future graduates 
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can adapt to rapid changes in this area, without neglecting traditional 
jobs and the fundamental and lasting foundation for the training ? Af¬ 
ter considering the notion of big data and questioning the emergence 
of a "new" science : Data Science, we present the current develop¬ 
ments in the training of engineers in Mathematical and Modeling at 
INSA Toulouse. 

Keywords : Data Science; Statistics; big data; teaching. 


Introduction 

Le deluge ou le tsunami massif des donnees et ses consequences en matiere 
d’emploi des etudiants formes a la Statistique, bouscule le paysage academique. 
Beaucoup de Masters ont ete crees ces deux dernieres annees avec un intitule 
Sciences des Donnees. LTNSA de Toulouse, qui integre une specialite d’inge- 
nieurs Genie Mathematique et Modelisation (GMM) incluant une orientation Mo- 
dHes et Methodes Statistiques (MMS) n’echappe pas a ce mouvement de fond. 
L’objectif de cet article est de decrire la strategie adoptee et les developpements 
pedagogiques mis en place pour accompagner cede evolution a tres court terme 
puis a moyen terme avec le renouvellement a venir de 1’accreditation de la specia¬ 
lite GMM par la Commission du Titre d’lngenieur courant 2016 pour la rentree 
2017. 

Le departement de Mathematiques de ITNSAT forme des statisticiens qui in¬ 
tegre avec succes le monde professionnel, comment former des scientifiques des 
donnees ? Plus precisement, nous formons depuis la promotion 2007 des etudiants 
aux methodes recentes de modelisation et apprentissage statistiques; depuis la 
promotion 2013, ceux-ci sont embauches comme data scientist. Nous formions 
done a des metiers ^ avant que ceux-ci n’existent. Plus serieusement, comment 
mieux former les etudiants a la realite actuelle de ces emplois ? 

Ces changements touchent bien sur les contenus des programmes mais im- 
pactent egalement nos pratiques pedagogiques. La premiere section de cet ar¬ 
ticle decrit quelques enjeux en lien avec le traitement des donnees massives, la 
deuxieme s’interroge sur I’emergence d’une "nouvelle science". La troisieme sec¬ 
tion resume succinctement Penvironnement disciplinaire des etudiants de GMM 
MMS et les nouveaux objectifs vises. La quatrieme section decrit les adaptations 
de programme, principalement a court terme, leurs objectifs pedagogiques et les 
nouvelles ressources associees qui sont disponibles sur le site wikistat. f r. 

1. A I’insu de notre plein gre. 
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1 Quelques enjeux des donnees massives 

1.1 Disparite 

Malgre une apparente unite, la Science des donnees recouvre des realites tres 
differentes en fonetion de leurs origines et modes de produetion. La partie la plus 
visible eoneerne les prineipaux aeteurs d’internet (GAFA ou Google, Apple, Faee- 
book, Amazon), ee sont les premiers produeteurs, analyseurs de donnees massives 
et sans doute les finaneeurs majeurs de la reeherehe dans ee domaine, devant les 
finaneements publies. Le eontexte est eompletement different lorsqu’il s’agit de 
donnees publiques ou open data, de donnees seientifiques eomme par exemple 
en Astronomie, Biologie, ou eneore de donnees industrielles. Les problemes de 
eonfidentialite, de seeurite, d’arehivage, de besoins de ealeul, d’algorithmes... se 
posent de fa 9 on radiealement differentes. Certes, beaueoup des methodes mathe- 
matiques et statistiques utilisees sont transferables d’un domaine a F autre, mais 
le eontexte teehnologique de mise en ceuvre ehange eonsiderablement les ehoix 
en presenee, notamment dans la fa 9 on d’arehiteeturer, paralleliser les stoekages 
et ealeuls, done les ehoix de methodes et d’algorithmes et finalement les eompe- 
tenees requises. 

1.2 Reellement massives ? 

La vogue de F appellation big data a eu des eonsequenees immediates sur la 
eommunieation. Tout probleme maintenant elassique de fouille de donnees {data 
mining), par exemple en marketing quantitatif ou gestion de la relation elient, est 
devenu de la Science des donnees alors que eelles-ei sont loin d’etre massives. 
Pour ajuster le diseours, les donnees deviennent smart ou eneore Faspeet "big” 
de la eommunieation eoneerne les resultats eommereiaux attendus ou promis par 
Fexploitation des donnees, plus que leur volume. 

Seuils technologiques 

D’autres domaines produisent effeetivement des donnees massives eonfron- 
tees a deux seuils teehnologiques lies au volume. Le premier eoneerne la memoire 
interne (RAM) de Fordinateur. La majorite des logieiels seientifiques (R, Matlab, 
Seikit-learn de Python...) neeessitent le ehargement en memoire de Fensemble des 
donnees pour leur traitement. Quels ehoix operer en eas d’impossibilite : ehanger 
d’ordinateur (ee pent etre la meilleure solution), eehantillonner, repartir les don¬ 
nees et les ealeuls sur un reseau ou cluster d’ordinateurs ? Ce dernier ehoix rejoint 
le deuxieme seuil teehnologique lorsque leur volume depasse la eapaeite de sto- 
ekage d’un seul ordinateur (disons aetuellement quelques tera-oetets) ou eneore 
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si le temps de reponse necessite un traitement parallelise des donnees. En eonse- 
quenee, la problematique : donnees massives et ses implieations methodologiques, 
algorithmiques, emergent reellement a partir du moment on les donnees sont dis¬ 
tributes sur plusieurs ordinateurs. Dans le eas eontraire, les methodes statistiques 
et algorithmes usuels d’apprentissage restent operants. 

Bien entendu les questions de velocite de 1’acquisition, associees a des prises 
de decision en ligne ou en temps reel, la complexite ou la variete (images graphes, 
signaux) des donnees, soulevent d’autres questions plus fondamentales de repre¬ 
sentation (objet mathematique) independamment du volume considere. Ces ques¬ 
tions apparues bien avant la "naissance" de la science des donnees concement 
alors plus des sujets de recherche (these) qu’une formation de niveau Master. 

Preparation des donnees 

Plus precisement et encore plus concretement en amont, la phase de traite¬ 
ment la plus importante, en terme d’implication humaine et de trafic de don¬ 
nees, est souvent celle d’extraction, preparation. Cette etape, dite aussi de data 
munging ou wrangling : verification, imputation, transformation, selection des 
variables (features), est unidimensionnelle (au plus bi), facilement distribuable 
done parallelisable dans un langage comme Python eventuellement en connexion 
avec des technologies specifiques Hadoop et Spark. La preparation des donnees 
met en oeuvre des methodes de niveau tres elementaire (resume statistique des 
distributions) a tres elaboree (recalage de courbes ou time warping, d’images...), 
elle requiert souvent des competences "metiers" du domaine d’application et est, 
de toute fa 9 on, fondamentale pour la qualite des resultats. Elle est maUieureuse- 
ment souvent occultee lors des presentations commerciales des technologies en 
concurrence pour donnees massives qui se contentent de donnees "jouet" (cf. les 
inevitables iris de Eisher). Une fois cette etape realisee, les donnees extraites et 
mises en forme sont finalement rarement volumineuses et les algorithmes, pro¬ 
grammes classiques d’exploration, modelisation ou apprentissage sont utilisables 
sur un poste personnel ou un gros serveur capable de les charger en memoire. 

Scalability des methodes et algorithmes 

Dans son expose lors des Joumees de Statistique de Lille (2015), David Bessis 
a ete tres clair sur ce point. Les methodes (factorisation de matrices non-negatives 
ou NME) que sa societe (Tinyclues) met en oeuvre pour des systemes de recom- 
mandation de sites de commerce en ligne s’executent en memoire sur un ser¬ 
veur d’ Amazon Web Service. Certaines situations peuvent neanmoins necessiter 
Pexecution d’algorithmes, par exemple d’apprentissage supervise ou non, sur des 
donnees physiquement distributes. Ce n’est guere que dans ce eas que des techno- 
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logics et librairies dediees deviennent incontoumables, dies mettent en oeuvre des 
methodes susceptibles d’etre decomposees en phases successives de MapReduce, 
on dit qu’elles sont alors echelonnables comme traduction de scalable. C’est a 
ce jour la librairie ML lib de Spark qui semble la plus prometteuse ou tout du 
moins celle la plus couramment citee. Elle utilise le principe introduit dans Spark 
de base de donnee resiliente (Zaharia et al. 2012) afin de rendre efficace des algo- 
rithmes iteratifs en minimisant les acces disques sur le systeme Hadoop de gestion 
de fichiers partages. 

1.3 Realite ou fantasmes ? 

La croissance exponentielle de la production de donnees et leurs trois V (vo¬ 
lume, variete, velocite) ont ete et sont toujours tres mediatises pour glorifier leurs 
consequences en matiere de croissance economique, nombre d’emplois, avancees 
scientifiques. En contrepartie, mais rarement dans le meme article, la meme em- 
phase est deployee pour mettre en exergue les risques associes : ethiques, juri- 
diques, securitaires ou politiques. Get article n’est pas le lieu pour aborder ces 
points mais il reste important de sensibiliser, voire d’alerter, les etudiants sur cer¬ 
tains aspects. Donnons deux exemples : 

- Confusion, suite a 1’affaire Snowden, entre la face cachee ou big brother du 
stockage massif des messages personnels (NSA), d’une part et la prevision 
de comportements ou de gouts personnels vendue a des agences de publi- 
cite d’autre part. De plus, le statisticien salt bien que le volume, en terme de 
nombre d’individus, permet d’atteindre une grande precision pour la pre¬ 
vision de comportements moyens (loi des grands nombres) mais une part 
irreductible d’alea, c’est heureux, reste attache a la prevision d’un compor- 
tement individuel. Que penser des affirmations du site Apply Magic Sauce ^ 
qui "revele votre personnalite" a partir de ce que vous aimez (vos Like) de 
Facebook ? 

- Depuis quelques annees aux USA et plus recemment en Erance, des assu¬ 
rances autos ^ proposent 1’installation d’un boitier embarque pour evaluer la 
qualite de conduite afin de personnaliser chaque mois le tarif de la prime : 
payez comme vous conduisez. Quelles sont les implications ethiques d’un 
tel precede s’il se generalise, par exemple, a I’assurance maladie ou a celle 
d’un pret immobilier? C’est au legislateur de reguler I’equilibre entre une 
segmentation de plus en plus fine de la clientele done des tarifs, d’une part et 
d’autre part la solidarite ou mutualisation des risques qui repose sur le prin¬ 
cipe d’asymetrie de I’information au profit, en principe et jusqu’a present, 

2. Cite dans un article du Nouvel Observateur. 

3. Cite dans un article du Nouvel Observateur 


5 



de r assure. 


2 Nouvelle science ? 

2.1 Nouveau paradigme ? 

Presente depuis plusieurs sieeles dans toute analyse de donnees, que manque- 
t-il a la Statistique pour se voir suppleer par la Science des donnees ? Quel nouveau 
paradigme serait reeemment apparu pour justifier de la ereation de "nouveaux" 
metiers ? Depuis le developpement de la Statistique mathematique du milieu du 
sieele dernier, eette diseipline a evolue parallelement et inevitablement aux inno¬ 
vations teehnologiques et done au volume des donnees traitees. Ignorer ees deve- 
loppements, e’est penser que eette diseipline se limite a une experience planifiee, 
des calculs de moyennes ecarts-types, une droite de regression et un ou deux tests 
(Student, Fisher). 

Ce qui est nouveau e’est de toute evidence une forme de digitalisation ou 
"datafication" massive du quotidien. Photos, messages, documents, navigation in¬ 
ternet, contacts, agenda, geolocalisation... , tout se numerise, s’archive et devient 
accessible a 1’analyse; ce phenomene ne pent que s’accentuer avec la connexion 
de toujours plus d’objets personnels. Mais qu’en est-il du point de vue methodo- 
logique pour analyser, exploiter, valoriser ees donnees. 

Donnees prealables a I’analyse 

Un changement notable est apparu avec I’avenement du data mining dans les 
annees 90. Premier changement de paradigme, F acquisition des donnees n’est 
plus planifiee. II s’agit de valoriser celles stockees, principalement pour des rai¬ 
sons comptables, afin d’optimiser la gestion de la relation client (GRC) dans les 
grandes societes tertiaires : banque, assurance, telephonic, VPC... Le statisticien 
devient "prospecteur de donnees". L’ouverture massive de sites de vente en ligne 
fait actuellement exploser ees besoins en marketing quantitatif sans necessaire- 
ment renouveler les methodes. Certes, les systemes de recommandation en temps 
reel avec decision sequentielle sont massivement apparus avec le commerce en 
ligne mais ils remettent surtout au gout du jour les algorithmes de bandits (Thom¬ 
son, 1933) illustres par le succes commercial de Criteo et suscitent evidemment 
de nouvelles recherches (cf. par exemple Cappe et al. (2013)) mais post Master. 

p » n 

Le developpement des biotechnologies depuis le debut du sieele facilite et po¬ 
pularise la production de masses de donnees consequentes notamment avec les 
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techniques recentes de sequen 9 age et autres omiques. Le deuxieme changement 
de paradigme est ainsi introduit par raccroissement considerable du nombre p 
d’informations (expression de genes, de proteines...) disponibles par echantillon 
biologique alors que la taille n de ces echantillons reste modeste. Analyser plu- 
sieurs dizaines de milliers a millions de variables pour quelques dizaines ou au 
plus centaines d’individus, c’est plus d’indetermination que d’information. Apres 
la correction des tests multiples (Benjamin! & Hochberg), les methodes statis- 
tiques ont ete adaptees a cette situation par 1’introduction systematique de phases 
de selection de variables, par exemple par la prise en compte d’une contrainte 
de penalisation en norme Li (cf. Le Cao et al. 2011 pour la regression PLS). Le 
statisticien est devenu "bioinformaticien" ou au moins public dans des revues de 
Bioinformatique. 

Erreur d’optimisation 

Les problemes methodologiques souleves par la variete des donnees ou leur 
velocite motivent de nouveaux developpements mathematiques et statistiques (al- 
gorithmes adaptatifs, decision sequentielle, courbes, surfaces, graphes, texte en 
langage naturel...) mais sans rupture dans la prise en compte de toujours plus de 
complexite. En revanche, le volume, s’il est reel, par rapport a des capacites de 
calcul et de stockage limitees, introduit un nouveau probleme ou plus precise- 
ment un nouveau terme d’erreur a minimiser; c’est le troisieme changement de 
paradigme. 

Au coeur d’un cours d’apprentissage statistique ou machine, il y a le controle 
du sur-apprentissage ou I’optimisation de la complexite d’un modele pour mi¬ 
nimiser r erreur de prevision (estimee generalement par validation croisee) en 
equilibrant au mieux biais (erreur d’approximation) et variance (erreur d’estima- 
tion) des previsions car si le biais decroit avec la complexite d’un modele, la 
variance augmente et pent exploser avec des problemes mal conditionnes et le 
sur-apprentissage. 

Le troisieme et nouveau terme d’erreur d’optimisation, pent s’illustrer sur un 
exemple simple : quelle est la meilleure strategic ? C’est-a-dire celle conduisant a 
la plus petite erreur de prevision : 

- Echantillonner les donnees pour en reduire la taille (inferieure a celle de la 
memoire) et se ramener a un deroulement classique d’optimisation biais / 
variance avec un grand choix de methodes utilisables tout en introduisant 
une erreur due a la reduction de I’ensemble d’apprentissage. 

- Estimer un modele sur toutes les donnees, alors necessairement distribuees, 
en utilisant par exemple un environnement Hadoop / Spark et la librairie 
ML lib. Ee choix de methode disponible devient tres reduit, seules celles 
passant a I’echelle {scalable) sont disponibles et les procedures d’optimisa- 
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tion de leurs parametres de complexite souvent negligees car fort couteuses 
en temps de calcul. 

Les ressources (memoire, temps) sont contraintes, comment minimiser le terme 
d’erreur d’optimisation du, soit a rechantillonnage, soit a la limitation des calculs 
on methodes utilisables sur une base d’apprentissage tres volumineuse et distri- 
buee ? De fa§on globale, une fonction cout a minimiser peut etre definie s’11 est 
possible d’evaluer le cout induit par des erreurs de prevision, a mettre en balance 
avec le cout du calcul pour I’apprentissage sur des serveurs proposant ce service. 

Exhaustivite vs. echantillonnage 

L’exemple precedent souleve une nouvelle remarque ou de nouvelles ques¬ 
tions. Jusqu’a la fin du XlXeme siecle, les statistiques etaient principalement ex- 
haustives. C’est avant la 2eme guerre, notamment avec les travaux de Neyman 
(1936), que s’est developpee la theorie des sondages, done de rechantillonnage, 
puis que sont apparus les premiers instituts (e.g. Gallup) pour etudier, par exemple, 
le comportement des consommateurs. Nouvelle evolution, I’avenement des don- 
nees massives rend accessible 1’observation et, pourquoi pas, le retour vers le fu- 
tur avec a nouveau Vanalyse exhaustive d’une population. Certes, en 1’absence de 
contrainte de calcul comme vue precedemment, un tel traitement elimine I’erreur 
due a rechantillonnage et la contribution d’un statisticien. 

Malheureusement, les donnees exhaustives recoltees sont-elles bien represen¬ 
tatives de la realite ? Ou encore, beaucoup de donnees signifie-t-il beaucoup d’in¬ 
formations ou une information utile ? L’exemple des mesures d’audience realisees 
par Mediametrie illustre bien ces questions. Certes les foumisseurs d’acces savent 
precisement quelle chaine de television est diffusee par la boite de tons leurs abon- 
nes mais cette derniere ne salt pas qui est devant la television ou meme si seule- 
ment la television est allumee; un site internet enregistre tons les dies de tons les 
visiteurs mais quel est le profil d’un visiteur (60% sont en moyenne des robots) ? 
C’est la raison pour laquelle Mediametrie propose un nouveau modele, necessai- 
rement statistique, de mesure d’audience hybride de 1’internet fixe. Cette mesure 
utilise les fichiers log de connexions pour redresser les donnees individuelles d’un 
panel classique d’intemautes bien identifies. 

2.2 Quelle economie ? 

Pressions socioeconomiques 

II y a 20 ans (cf. par exemple Besse et al. 2001) naissait le Data Mining deja 
promu comme une nouvelle discipline mais qui se resume principalement a I’ex- 
ploitation de suites logicielles commerciales comme IBM SPSS Clementine, SAS 


8 


Enterprise Miner, SPAD, on libres comme Knime, Tanagra, Weka... interfa§ant 
amicalement des outils de gestion de bases de donnees avec des algorithmes 
d’exploration, modelisation statistique (regression gaussienne, logistique...) et 
d’apprentissage machine (reseaux de neurones...) par ailleurs bien connus. L’his- 
toire se repete avec une emphase proportionnelle au facteur d’echelle multiplicatif 
du volume des donnees (mega, giga, tera...) et la mise en place de sites ou plate- 
formes de service. 

L’emergence massive d’un phenomene mediatique rend necessaire, pour des 
raisons de strategic de communication commerciale plus que scientifiques, le re- 
nouveau des etiquettes. Au revoir la Statistique, avec ses specialistes academiques 
certifies pour ne pas dire passeistes issus du siecle dernier, bonjour la Science des 
Donnees, thematique suffisamment vaste et aux frontieres mouvantes sur laquelle 
tout le monde ou presque peut s’exprimer, eldorado, des nouveaux conquistadores 
de parts de marche. 

Nouveau modele economique 

Le pay sage ^ ou plutot la jungle economique et industrielle des technologies 
de I’information est en profonde mutation. Des acteurs majeurs : IBM, Hewlett 
Packard, Oracle, Microsoft, SAS Institute..., sont fortement ebranles dans leurs 
ccEurs de metier historiques et se reconvertissent avec plus ou moins de succes 
et d’efficacite pour suivre le mouvement : compatibilite avec le foisonnement de 
la production de code sous une licence open source comme celle des projets de 
la fondation Apache, investissement massif vers les activites de services a forte 
valeur ajoutee plutot que la production de materiels et meme de logiciels. Citons 
simplement I’exemple d’Amazon^ : AWS (Amazon Web Service) ne representait 
que 5,3% du chiffre d’affaire d’Amazon au premier semestre 2014, il est passe a 
7% avec une croissance de 49% en un an. AWS reste en tete de ce marche (30%) ^ 
devant Microsoft et sa plateforme, IBM et meme Google. 

Le modele economique est profondement remanie. Les equipements trop chers 
sont loues, les langages et logiciels sont libres mais les concepts et methodes trop 
complexes a assimiler et mettre en oeuvre sont des services (formations, plate- 
formes) monnayables. Plus generalement, tout un ensemble de ces services et une 
nomenclature associee se developpent avec 1’industrialisation, la commercialisa¬ 
tion du cloud computing : software as a service (SaaS), infrastructure as a service 
(laaS), platform as a service (PaaS), desktop as a service (DaaS), backend as a 
service (BaaS), information technology management as a service (ITMaaS). Get 

4. Interface graphique user friendly. 

5. Consulter la carte de Matt Turk 

6. Source : ICT Journal 

7. Source :Le Monde de ITnformatique 
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article n’est pas le lieu de developper ees points. Citons seulement quelques en- 
treprises surfant sur la vague des nouvelles teehnologies : Enthought (Canopy) et 
Continuum analyties (Anaeonda) proposent des distributions libres de Python et, 
c’est important, faciles a installer ainsi que des versions plus elaborees pay antes 
et de la formation associee. Les createurs (Zaharia et al. 2012) de Spark ont fonde 
databrieks : Data science made easy, from ingest to production, pour principale- 
ment vendre de la formation et une eertifieation. Trevor Hastie et Ron Tibshirani 
conseillent Oxdata qui developpe une forme d’interfaee : H20 entre R et Hadoop 
avec des algorithmes speeifiques dont une version eduleoree d’apprentissage pro- 
fond {deep learning). 

2.3 Quelle Mathematique ? 

Nouvelles methodes ? 

Qu’est-ee qui justifierait I’appellation d’une nouvelle scienee dite des don- 
nees ? Le troisieme terme d’erreur d’optimisation deerit ei-dessus, eonsequenee 
directe du ehangement d’echelle en volume, serait-il a I’origine du changement 
d’etiquette ? L’association systematique faite entre "seience des donnees" et tech¬ 
nologies de stoekage distributes (Hadoop) le laisserait penser alors que les aspeets 
les plus fondamentaux sont finalement peu impaetes ; on assiste plutot a un retour 
en arriere (ef. Besse et al. 2014), une remise a jour de methodes relativement 
aneiennes eomme k-means (Mae Queen, 1967), regression logistique et plus re- 
eentes (forets aleatoires de Breiman; 2001), dont les algorithmes ont de bonnes 
proprietes {scalable) pour etre distributes, paralltlistes. 

L’adaptation algorithmique qui en rtsulte et le nouveau terme d’erreur a 
prendre en compte font nteessairement tvoluer la reeherehe dans les disei- 
plines eoneemtes mais peut-on parler de nouvelle scienee si ce n’est que sta- 
tistieiens, mathtmaticiens (optimisation) et informatieiens (bases de donates, ar- 
ehiteetures...) sont elairement obligts de eollaborer. 

Recherche fondamentale 

Une nouvelle Seienee se devrait d’ouvrir et explorer de nouveaux ehamps fon¬ 
damentaux de recherche. Le buzz mtdiatique bouscule les frontieres elassiques 
interdisciplinaires. Ce ne peut etre que tres positif, surtout en Lranee oil eelles- 
ci sont rendues peu permtables par les struetures de nos instances nationales de 
reerutement et promotion (Comitt National des Universitts, Comitt national de 
la Reeherehe Scientifique). Le CNRS vient^ de labtliser le nouveau Groupe- 

8. Assemblee generate constitutive des 24 et 25 juin 2015. 
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ment de Recherche MaDICS (Masse de Donnees, Information et Connaissance 
en Sciences). 

MaDICS propose un ecosysteme Masses de donnees scientifiques 
afin de promouvoir et animer des activites de recherche interdisci- 
plinaires ^ positionnees dans un continuum des donnees aux connais- 
sances et d la prise de decision dont le point de depart sont les masses 
de donnees en Sciences. MaDICS est egalement un forum d’echanges 
entre scientifiques et acteurs economiques confrontes aux problemes 
du "big data" et des Sciences des donnees, un instrument de pros¬ 
pective et un lieu d’accompagnement des jeunes chercheurs dans les 
domaines concemes. 

Neanmoins les avancees majeures, dynamisees par les nouveaux defis, restent pro- 
fondement disciplinaires en lien avec des fondamentaux tant en Mathematiques 
qu’en Informatique, sans faire naitre une nouvelle science. Ainsi, le concours 
Netflix a un million de dollars a suscite une vague importante de publications 
a la suite des travaux de Candes et Tao (2009) en optimisation convexe pour la 
completion de tres grandes matrices creuses non negatives. En lien avec le troi- 
sieme terme d’erreur, ce sont generalement et dans la plupart des colloques sur le 
sujet, des problemes d’optimisation qui sont approfondis d’un point de vue theo- 
rique, mathematique (gradient stochastique...) et algorithmique pour optimiser les 
performances des librairies et les adapter a des architectures specifiques. 

Le point de vue adopte dans cet article est evidemment celui de statisticiens 
entraines a Tanalyse de donnees de toutes origines ; le specialiste d’une autre dis¬ 
cipline pent en adopter un autre. Le travail du biologiste est largement impacte 
par le developpement recent des biotechnologies dont le sequen 9 age a haut de¬ 
bit. Les analyses associees ont profile et aussi motive le developpement des me- 
thodes d’apprentissage en tres grande dimension ces dernieres annees. La Phy¬ 
sique fait de meme. Lorsqu’un systeme est trop complexe (turbulences) pour 
Lexplicitation d’un modele analytique ou son calcul explicite (Schrodinger), un 
(meta)modele d’apprentissage statistique boite noire non interpretatif mais pre- 
dictif pent s’averer utile comme par exemple pour defier le boson de Higgs ; un 
outil parmi d’autres, qui ne remplacera pas la Physique. 

2.4 En resume 

Une visile au site presentant les services d" Amazon WS Machine learning 
illustre bien ce debat. II y est affirme que les outils developpes permettent "d’utili- 
ser une technologie d’apprentissage-machinepuissante sans avoir besoin de mai- 

9. Difficile d’avoir des chiffres precis mais la tres grande majorite des presents a cette assem- 
blee emargeaient aux sections 6/7 du CNRS ou 27 du CNU ! 
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triser les algorithmes et techniques de I’apprentissage-machine" (sic !). La pro¬ 
motion commerciale de certains logiciels de prospection de donnees promettait 
deja il y a quinze ans I’extraction de pepites (nuggets) sans se salir les mains. 
Au jour (septembre 2015) de la visite du site, AWS deploie et commercialise des 
moyens de stockage et calcul impressionnants mais plus que restreints d’un 
point de vue methodologique : le choix de methode est strictement limite au mo- 
dele lineaire (general) : regressions gaussienne, binomiale ou logistique, logis- 
tique polytomique. La prise en compte de possibles interactions se fait "a la main" 
en creant de nouvelles variables par produit cartesien de variables qualitatives, le 
reglage de la penalisation Li sensee operer la selection de variables est laisse au 
choix de I’utilisateur sans automatisation de I’optimisation et avec une valeur par 
defaut du parametre a 0; le site renvoie sur Wikipedia pour les explications. 

Vue sous cet angle, la "Science des Donnees" devient un enrobage publicitaire 
(packaging) pour masquer des approches statistiques limitees (AWS), ou elabo- 
rees (databricks), executees dans des environnements technologiques sophistiques 
dans le but de louer de I’espace disque et vendre des heures de calcul ainsi que de 
la formation. 

Dans le cas d’objectifs de marketing pour le calcul de score d’appetence ou 
d’attrition a partir de donnees massiques, on pent imaginer que la rapidite de mise 
en CEUvre, la reduction des couts de personnels, incitent a Lutilisation "presse bou¬ 
ton" de plateformes dediees plutot qu’a des analyses sur mesure elaborees avec les 
competences adaptees. Quelques points d’erreur de prevision en plus n’ont pas de 
consequences redoutables dans ce domaine. Neanmoins, compte tenu des inves- 
tissements consentis en amont, cette strategic n’est sans doute pas optimale, elle 
est meme inacceptable dans d’autres secteurs d’application : recherche, Sante pu- 
blique, industrie. 


3 L’enseignement de la Statistique a I’INSAT 

3.1 Orientation GMM MMS 

Comme les autres ecoles du groupe INSA, celui de Toulouse recrute, princi- 
palement apres le bac, pour 5 ans de formation organisee, c’est original (1-I-2-I-2) 
a Toulouse avec une annee commune, deux annees de pre-orientation et deux 
de specialisation. La pre-orientation Modelisation Informatique et Communica¬ 
tion (MIC) conduit a deux specialites d’ingenieur dont celle de Genie Mathe- 
matique et Modelisation (GMM) au cours de laquelle les etudiants ont le choix 
entre deux orientations Methodes et Modeles Numeriques d’une part, Statistiques 

10. Source : Mode d’emploi d’AWS. 

11. D’autres recrutements sont prevus sur dossier aux niveaux L2, L3, Ml. 
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d’autre part. Cette derniere filiere eoneerne ehaque annee une trentaine d’etudiants 
qui suivent une quatrieme annee (programme detaille)avee les eontenus relative- 
ment elassiques d’un Master de Statistique. Les etudiants ont ensuite le ehoix, en 
einquieme annee (programme detaille), entre deux groupes d’unites de formation 
(LFF) en plus d’un trone eommun. Deux UFs sont consaerees a I’ingenierie ma- 
thematique pour la Finance et deux aux applications industrielles de la Statistique 
(risque, incertitude analyse de sensibilite, planification experimentale). Le trone 
eommun regroupe un projet tutore "Recherche Innovation" et un cours assez vo- 
lumineux d’apprentissage statistique (60h), de la modelisation dite avancee (duree 
de vie, statistique spatiale) et des "humanites". 

3.2 Statistique et employabilite 

La Statistique est evidemment presente comme discipline de service dans les 
huit specialites representees a I’lNSAT mais egalement comme une specialite spe- 
cifique au sein de celle de modelisation mathematique. Les etudiants ainsi formes 
trouvent tres rapidement un emploi a leur sortie dans des secteurs tres divers cou- 
vrant actuellement les applications financieres (analyse de risque...), I’Actuariat 
(moyennant une annee supplementaire pour obtenir le litre), I’industrie (le plus 
souvent avec une these CIFRE), la Biostatistique (generalement pour faire une 
these) et la fouille des donnees {data mining) avec des applications par exemple 
en marketing quantitatif ou gestion de la relation client (GRC). 

Depuis la promotion 2013, les etudiants, qui apprennent aussi a communiquer, 
se designent dans leur CV comme etant des Data Scientists et sont embauches sur 
de tels intitules de postes. L’adaptation a cette nouvelle realite de I’offre d’emploi 
fut indispensable voire urgente car elle ne pouvait attendre la mise en place de la 
nouvelle maquette (rentree 2017) apres accreditation de la CTI qui intervient tous 
les six ans. 

Les visiles de stage et le retour des etudiants sur leur premier emploi montrent 
que, formes depuis 2007 aux methodes d’apprentissage (machine ou statistique), 
a la selection de modele et a leur utilisation concrete en projet sur donnees reelles, 
ceux-ci se sont tres bien adaptes aux volume, variete, velocite des donnees. Nean- 
moins, soucieux de 1’employabilite des etudiants a venir et face a 1’afflux impor¬ 
tant de telles offres de stages ou d’emplois, des eontenus et formes pedagogiques 
ont evolue en annees quatre et cinq de la specialite a partir la rentree 2014. 
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4 Adaptations du cursus GMM 

4.1 Quelles competences ? 

D’un point de vue operationnel, avant d’analyser des donnees il faut pouvoir 
les archiver, les extraire, alors que leur volume necessite arehiteeture et puissance 
de ealeul inhabituelles dans eertains domaines. Dans d’autres domaines eomme 
la recherche petroliere ou la Meteorologie, ees echelles de volume ont deja ete 
largement atteintes sans pour autant deelencher de tels seismes mediatiques. Puis, 
lorsque debute 1’analyse, la "scienee des donnees" neeessite, en premier lieu, des 
savoir-faire de statisticien en relation avee des competences metiers du domaine 
d’applieation. Reperer des anomalies, imputer des donnees manquantes, seleetion- 
ner et transformer des variables (features), identifier des sources de variabilite, des 
structures de eorrelation ou plus generalement de liaisons entre variables, sont des 
eompetenees basiques. II n’est sans doute pas indispensable de toujours faire ap- 
pel a un statistieien certifie, mais il est risque de faire abstraction de ces etapes, 
et des eompetenees afferentes indispensables, avant d’aborder le travail plus so- 
phistique de modelisation a nouveau statistique ou d’apprentissage qui requierent 
comprehension, eonnaissance et experience des methodes utilisables. 

Un seientifique des donnees est finalement, idealement, au eentre d’un tetra- 
edre de eompetenees interconneetees : statistiques, informatique, mathematiques 
et metiers du domaine. Il maitrise en principe une grande variete d’outils pour 

- gerer des bases de donnees classiques et NOSQL (Not Only SQL), 

- administrer des nuages de calculateurs virtuels ou non, 

- visualiser, explorer, representer (signaux, images, graphes), selectionner, 
transformer en lien avee le metier, 

- modeliser (apprentissage statistique ou machine), prevoir tout en 

- optimisant les algorithmes, les modeles et ehoix de strategie, de teehnologie 
ou plateforme. 

Il n’est evidemment pas realiste de vouloir former en 5 ans apres le bac un tel 
seientifique suseeptible de prendre en charge toutes ees missions tout en le sensi- 
bilisant aux aspeets juridiques et ethiques de confidentialite. L’accent est mis sur 
la partie valorisation et done 1’analyse (analytics) des donnees massives. 

4.2 Objectifs 

L’objectif n’est pas, ou ne sera pas, de ereer un nouveau Master ou une nou- 
velle speeialite d’ingenieur en "Seiences des Donnees". Le manque de ressources 
humaines ou de finaneements pour une mise en plaee dans le eadre de la for¬ 
mation eontinue eomme e’est le cas a Teleeom ParisTeeh, le ealendrier contraint 
du proeessus d’habilitation d’une speeialite d’ingenieur, rendent irrealistes de tels 
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objectifs. Pour les memes raisons budgetaires, il est impossible de demultiplier 
les options ou orientations. Enfin, I’appellation de ce metier "scientifique des don- 
nees" est actuellement intimement liee au developpement des services en ligne, 
pas tons viables a plus ou moins long terme et pas a I’abri d’une implosion de la 
bulle speculative associee; il serait peu strategique de negliger les metiers tradi- 
tionnels pour I’avenir des etudiants et de la formation. Le choix a done ete fait 
d’un amenagement flexible des contenus, au sein d’une formation professionnali- 
see avancee en Statistique, afin d’y introduire, au detriment d’autres aspects, les 
concepts et methodes per 9 us, chaque annee comme prioritaires pour 1’analyse et 
la valorisation de donnees massives. 

Parmi toutes les competences necessaires a la maitrise des principaux outils : 
bases de donnees lorsqu’elles sont massives, calcul parallele avec donnees re¬ 
parties, methodes d’apprentissage machine et statistique, donnees textuelles ou 
images, problemes specifiques d’algorithmique, mathematique et optimisation, 
connaissance "metier" du domaine d’application... Le choix est done fait d’in¬ 
sister sur les methodes statistiques adaptees a 1’analyse de donnees massives, sur 
les outils mathematiques (ondelette, scatering) et d’optimisation (convexe et sto- 
chastique) emergeants afin d’identifier les proprietes et limites de ces methodes. 
En revanche certains des aspects les plus technologiques et informatiques {cloud 
computing) sont abordes par leur seule mise en oeuvre pratique afin de rendre les 
etudiants capable de travailler en equipe et synergic avec des specialistes de ces 
outils. 

Un autre objectif tres important est celui de la capacite d’auto-formation. 
Les technologies considerees evoluent avec une excessive volatilite. En quelques 
mois, certaines sont plebiscitees, d’autres sont aussi vite oubliees. Il ne s’agit done 
pas de former les etudiants a des technologies dont la perennite est tres aleatoire, 
mais plutot de leur apprendre a s’y former au fil de I’eau et des besoins. 

4.3 Evolution du cursus GMM MMS 

Les contenus des unites de formation (UE) des niveaux L3 et Ml sont pro- 
gressivement amenages. C’est relativement simple et leger dans certains cas, plus 
complexe dans d’autres et ne pourra se faire qu’a partir de la rentree 2017, notam- 
ment pour I’UE centrale d’optimisation a I’interface entre modelisation numerique 
et stochastique. 

Sondage Insister (lourdement) sur la representativite d’un echantillon; beau- 
coup de donnees ne signifient pas beaucoup d’information ou une infor¬ 
mation suffisamment representative des objectifs. Alors que les fichiers de 
connexions sur les sites sont les sources de donnees les plus massives et 
veloces, il est symptomatique de noter que Mediametrie propose la consti- 
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tution de panels d’internautes afin de certes mesurer mais surtout connaitre 
les caracteristiques de I’audienee d’un site internet. 

Exploration statistique Ajouter la faetorisation de matriees non-negatives on 
NMF http ://wikistat.fr/pdf/st-m-explo-nnif.pdf) pour eompleter le florilege 
des methodes multidimensionnelles elassiques basees sur une deeomposi- 
tion en valeurs singulieres. L’illustrer par un exemple simple de systeme de 
reeommandation par filtrage eollaboratif. Renvoyer au eours d’optimisation 
pour ranalyse detaillee des algorithmes eomplexes de eette methode. 

Optimisation C’est I’UF qui demande le plus de reflexion pour eonstruire un pro¬ 
gramme avee deux objeetifs : rapproeher les deux orientations "numeriques" 
et "statistiques" de la speeialit GMM et introduire les approehes innovantes : 
optimisation eonvexe avee penalisation et exemple (travaux pratiques) d’ap- 
plieation a la eompletion de matrices, gradient stochastique avee application 
a venir a la regression, la SVD, la NMF... Ce programme est en preparation 
pour presentation a la CTI. 

Langages et logiciels Les etudiants beneficient d’un enseignement classique en 
Informatique (algorithmique, C, Java, Python). II s’agit de completer par 
les langages / logiciels specifiques au calcul et a la modelisation statis¬ 
tique. Une formation a R est developpee car ce logiciel est de plus en plus 
present dans les milieux industriels et commerciaux au detriment de SAS 
dont une initiation classique reste presente mais sans introduire les services 
de cloud analytics. Python, devenu un standard pour le calcul scientifique 
est introduit pour ses performances vis a vis de R, alors que les sorties 
tant numeriques que graphiques sont encore bien pauvres. U accent est mis 
sur les librairies pandas pour la preparation (munging) des donnees et 
scikit-learn pour I’apprentissage. 

Apprentissage statistique Au eours initial et en place depuis 2006 et dont le 
contenu est proche de celui de la reference du domaine (Hastie et al. 2002)) 
s’ajoutent progressivement une introduction aux techniques d’imputation de 
valeurs manquantes et surtout a la recherche d’atypiques (outliers) multidi- 
mensionnels par differentes approehes dont la discrimination a une classe 
(One Classe Classification). Cette UF insiste sur la pratique effective sur 
des donnees reelles, meme si pas massives, pour optimiser les performances 
(equilibre biais / variance) de ces methodes. 

4.4 Atelier 

Un Atelier: "Technologie des Sciences des Donnees " est mis en place en paral- 

lele de I’UF d’apprentissage statistique ; il s’agit d’ouvrir les acces aux principales 

technologies du moment dans des environnements performants. 
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Travail en autonomie 

Constat : un etudiant, qui a realise au eours de sa 4eme annee un projet tu- 
tore "Reeherehe Innovation" sur de vraies donnees et un stage de trois mois en 
entreprise en fin d’annee, entre tres motive en 5eme annee pour aequerir les eom- 
petenees dont il a finalement eompris qu’elles sont indispensables au bon debut 
de sa earriere. Son objectif prend de I’ampleur et depasse la seule validation de 
tons ses eredits ECTS. D’autre part, une priorite identifiee est de faire travailler les 
etudiants en equipe pluridisciplinaire afin de les faire se confronter a d’autres spe- 
cialistes pour la mise en oeuvre de teehnologies tres specifiques et tres mouvantes 
d’une annee sur 1’autre. 

Compte tenu de ees remarques et des objeetifs vises, nous avons deeide de 
mettre en plaee des Ateliers durant lesquels les etudiants realisent un projet au 
sein d’un groupe assoeiant des etudiants GMM virtuellement "elients", d’autres 
etudiants de la speeialite Informatique et Reseau (IR) et ayant ehoisi les mineures 
cloud computing, big data de leur speeialite. Prineipe : les etudiants GMM re¬ 
solvent un probleme de modelisation / prevision aides par eeux de la speeialite 
IR charges de mettre en place les moyens de calcul adequats. Ces groupes sont 
planifies dans I’emploi du temps sur 40 heures avec une heure de presence d’un 
enseignant-chercheur par semaine et supposent autant de travail personnel par 
ailleurs. 

Pour "aider" a la motivation les projets sont presentes sous la forme de compe¬ 
titions. Ce prineipe de concours a ete initie depuis de nombreuses annees au sein 
de certains colloques : American Statistical Association, KDD Cup, Chimiome- 
trie, machine learning. II est largement popularise par le site Kaggle et maintenant 
repris par I’ENSAE Paris Tech ou PENS Paris Saclay. II est possible, dans un pre¬ 
mier temps d’utiliser, les capacites de la librairie rchallenge (Todeschini et 
Genuer, 2015) ou de simplement demander aux etudiants de s’inscrire a un defi 
Kaggle en eours. Un site dedie pour I’organisation de telles competitions entre les 
formations locales ou regionales sera ouvert a la rentree 2016. 

E’evaluation de cette unite de formation tient compte du classement ou de la 
performance de la prevision obtenue et egalement des temps de calcul de la phase 
d’apprentissage d’un modele. 

Progression pedagogique 

E’atelier progresse en parallele d’une unite de formation approfondie (60 
heures) d’apprentissage statistique qui introduit les methodes et leurs procedures 
d’optimisation de I’equilibre biais / variance. II s’inscrit dans la continuation de 

12. 12 heures encadrees sur 48 de I’emploi du temps plus 48 heures de travail personnel. 
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la formation aux environnements de calcul statistique en suivant le fil conduc- 
teur du volume : R pour les donnees "petites" et des analyses complexes, Py¬ 
thon (pandas) pour aborder la preparation de donnees plus volumineuses, puis 
les modeliser (scikit-learn) de fa 9 on beaucoup plus efficace qu’avec R en 
terme de temps de calcul. 

Le passage a I’echelle massive se base toujours sur Python en utilisant I’API 
py spark pour acceder "simplement" et efficacement a I’environnement Hadoop. 
L’accent est mis sur la librairie ML lib de Spark qui execute quelques uns des 
principaux algorithmes d’apprentissage non supervises et supervises, de factori¬ 
sation (NMF par moindres carres altemes) sur des donnees distributes. 

Les premieres experimentations sont faites sur les postes personnels des etu- 
diants ou les serveurs d’enseignement de I’lNSA. La librairie RHadoop de 
R est developpee par la societe Revolution Analytics permet une initiation 
aux contraintes de MapReduce de Hadoop sans avoir a installer Hadoop; TAPI 
py spark permet aussi de tester les codes Python de MLlib sans I’acces a une 
reelle architecture distribute. Dans le meme ordre d’idte, H20 propose aussi une 
librairie R dont 1’utilisation permet une initiation a une version alltgte d’appren¬ 
tissage profond {deep learning). 

La derniere phase de la progression consiste a transposer, tester les codes rtali- 
sts sur des clusters commerciaux dans le cadre de partenariats (OVH, IBM, Hupi). 
C’est a cette ttape qu’interviennent les ttudiants de la sptcialitt Informatique et 
Rtseaux afin d’installer et optimiser les architectures. II s’agit de mettre en corres- 
pondance performances statistiques et temps de calcul pour les difftrentes confi¬ 
gurations. 

Ressources 

Les ressources ptdagogiques sont accessibles sur le site wikistat.fr sous 
la forme de vignettes de prtsentation des tltments mtthodologiques, de tutoriels 
(Python, R) des outils logiciels et de sctnarios (dtroult des commandes R ou 
python) d’analyse de donntes de plus en plus lourdes et complexes comme la 
detection de pourriels. 

Les premieres seances de Patelier sont consacrees a une auto-appropriation 
des outils disponibles sans faire appel a un "vrai" cluster : utilisation de RHadoop 
pour apprecier les contraintes de MapReduce, celle de H20 pour introduire le deep 
learning et une initiation a I’utilisation de MLiib de Spark via I’API py spark. 

L’etape suivante confronte les etudiants a des donnees relativement complexe 
et volumineuses dans la progression des outils disponibles afin d’experimenter les 
limites (lenteurs) de R, la meilleure efficacite de Python, puis celle des technolo- 

13. Rachetee par Microsoft en avril 2015. 
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gies adaptees au cloud computing. Deux situations sont proposees, d’autres seront 
progressivement ajoutees. 

La premiere concerne le probleme, largement etudie dans la litterature, de 
reconnaissance de caracteres propose par Yan le Cun (MINST) et base d’un 
concours Kaggle auquel les etudiants sont invites a participer. Le deroulement 
propose part de Lapplication naive d’une technique de discrimination avant de 
tester d’autres pistes dont 1’utilisation d’une distance invariante proposee par Si- 
mard et al. (1998). 

Le deuxieme sujet aborde les systemes de recommandation par filtrage colla- 
boratif. Apres une introduction elementaire ce sont les donnees de notations du 
site movieLens qui sont completees par differentes approches. 

Erreur d’optimisation 

L’un des objectifs, a ne pas perdre de vue dans la jungle technologique, est 
de faire evaluer experimentalement par les etudiants le troisieme terme d’erreur 
introduit par les contraintes imposees par les ressources. De I’emploi de R sur une 
simple machine, a 1’utilisation de la librairie MLlib (Spark) sur un gros cluster en 
passant par la librairie scikit-learn de Python, les temps de calcul sont evidemment 
reduits de fa§on drastique mais 1’indispensable analyse critique de ces librairies 
montre les restrictions qu’elles imposent en terme de choix de methodes et de 
facilite d’optimisation de leur complexite. 

Resultats attendus 

Les etudiants produisent des tutoriels d’installation et calepins {notebook). 
Ainsi, a Tissue de chaque atelier, il est facile pour les etudiants de s’approprier 
le travail realise par les autres groupes et d’elargir leur champ de competences sur 
les domaines connexes. Les previsions obtenues sur un echantillon test sont mises 
en competition entre groupes et, le cas echeant, plus largement sur un site internet. 


Conclusion tres provisoire 

La Science des Donnees n’est pas une nouvelle Science mais la consequence 
de nouveaux modeles economiques, de nouveaux marches, accompagnant les 
nouvelles technologies. II est certes indispensable d’y adapter la formation des 
etudiants pour faciliter leur employabilite, mais aussi pour les rendre conscients 
des nouveaux enjeux sociaux et les responsabiliser; c’est en marchant que nous en 
construisons le corpus des competences a transmettre ou faire acquerir. Le metier 
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de data scientist n’est done pas si "nouveau" et, en depit des messages eommer- 
eiaux, il est tres risque de penser qu’une valorisation optimale des donnees puisse 
etre atteinte sans des competenees approfondies en modelisation statistique et ap- 
prentissage machine. II est alors plus juste de dire qu’un statisticien est confronts 
a de nouveaux delis plus technologiques que methodologiques. 

L’optimisation de la complexite d’un modele ou le choix d’une methode est 
maintenant bien balise et relativement consensuel autour de la minimisation d’une 
estimation d’erreur de prevision, par exemple par validation croisee, pour equili- 
brer au mieux variance et biais du modele. En revanche, le ehoix d’une meilleure 
strategie pour minimiser la partie "erreur d’optimisation", sous eontrainte de res- 
souree de temps et de puissance de calcul, est un probleme largement ouvert et 
ee d’autant plus que le paysage teehnologique est en constante (r)evolution. Les 
recherches sur la resolution de ees problemes d’optimisation, leurs implementa¬ 
tions algorithmiques dans des arehiteetures materielles distributes, de meme que 
la prise en eompte et la representation de donnees complexes ou non structurees, 
ne constituent pas pour autant une nouvelle seience. 

En definitif, le nouveau role du data scientist est prineipalement d’associer 
deux types de demarches ou de logiques, celle du statisticien qui eonsiste a inferer, 
prevoir, controler une erreur ou un risque et celle de I’informatieien soucieux des 
eontraintes ou performances de ealcul pour atteindre I’objectif reeherehe. 

Ees objeetifs pedagogiques poursuivis a I’lNSA de Toulouse eonsistent fina- 
lement a entrainer I’apprenti statistieien a tester plusieurs strategies dans des en- 
vironnements technologiques adaptes, a developper son regard critique sur les 
resultats obtenus, leurs eonsequenees soeiales, et a lui apprendre a eontinuer a 
s’auto-former pour pouvoir remettre en eause ses habitudes. 

Ces objeetifs sont atteints en le formant aux aspeets les plus fondamentaux de 
la modelisation et des methodes d’apprentissage statistique, a la representation des 
donnees et aux problemes d’optimisation afferents ; le statisticien doit eonnaitre, 
controler les limites des outils developpes. Ces objeetifs necessitent des aeces 
a un eventail de teehnologies des donnees massives parmi eelles disponibles du 
moment. Eeurs eyeles de developpements sont nettement plus court que eelui des 
habilitations des formations, les amenagements et adaptations doivent etre tres 
flexibles d’une annee sur I’autre. On pent par exemple s’interroger sur I’impact 
que va avoir I’ouverture reeente (novembre 2015) au publie du code du projet 
TensorFlow de Google qui rend plus aeeessible r'apprentissage profond". 

Ee principe de faire participer les etudiants a des concours de prevision pre¬ 
sente des vertus pedagogiques a exploiter. Nous sommes loin d’un jeux serieux, 
fa§on jeu video, mais il serait dommage de ne pas utiliser ee levier pour sollieiter 
la motivation des etudiants vers I’autonomie indispensable a I’apprentissage de 
r autoformation. 

Ea mise en place de ces moyens est en eours ; il restera, avee le temps, a en 
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evaluer la pertinence. 
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